16 research outputs found

    Multimodal Visual Concept Learning with Weakly Supervised Techniques

    Full text link
    Despite the availability of a huge amount of video data accompanied by descriptive texts, it is not always easy to exploit the information contained in natural language in order to automatically recognize video concepts. Towards this goal, in this paper we use textual cues as means of supervision, introducing two weakly supervised techniques that extend the Multiple Instance Learning (MIL) framework: the Fuzzy Sets Multiple Instance Learning (FSMIL) and the Probabilistic Labels Multiple Instance Learning (PLMIL). The former encodes the spatio-temporal imprecision of the linguistic descriptions with Fuzzy Sets, while the latter models different interpretations of each description's semantics with Probabilistic Labels, both formulated through a convex optimization algorithm. In addition, we provide a novel technique to extract weak labels in the presence of complex semantics, that consists of semantic similarity computations. We evaluate our methods on two distinct problems, namely face and action recognition, in the challenging and realistic setting of movies accompanied by their screenplays, contained in the COGNIMUSE database. We show that, on both tasks, our method considerably outperforms a state-of-the-art weakly supervised approach, as well as other baselines.Comment: CVPR 201

    A Deep Learning Approach for Multi-View Engagement Estimation of Children in a Child-Robot Joint Attention Task

    Get PDF
    International audienceIn this work we tackle the problem of child engagement estimation while children freely interact with a robot in a friendly, room-like environment. We propose a deep-based multi-view solution that takes advantage of recent developments in human pose detection. We extract the child's pose from different RGB-D cameras placed regularly in the room, fuse the results and feed them to a deep neural network trained for classifying engagement levels. The deep network contains a recurrent layer, in order to exploit the rich temporal information contained in the pose data. The resulting method outperforms a number of baseline classifiers, and provides a promising tool for better automatic understanding of a child's attitude, interest and attention while cooperating with a robot. The goal is to integrate this model in next generation social robots as an attention monitoring tool during various Child Robot Interaction (CRI) tasks both for Typically Developed (TD) children and children affected by autism (ASD)

    Spatio-temporal representations learning and visual attention modeling in computer vision applications

    No full text
    During the Ph.D. thesis, there was developed and proposed a perceptually inspired spatio-temporal model for video analysis and visual saliency, that was employed and and evaluated in the spatio-temporal problems of visual saliency (by predicting the fixation points in video stimuli), action recognition and video summarization. This spatio-temporal model can provide motion information in different scales and directions without having to process it as a separate cue or use a small number of video frames. In this way, the proposed approach achieves to detect both the fastest changes in the video stimuli (e.g. flicker) and the slowest motion changes related to actions or salient events recognition. Nowadays, the extensive usage of Convolutional Neural Networks (CNNs) has boosted the performance throughout the majority of tasks in computer vision, such as object detection or semantic segmentation. However, the progress of CNN architectures, design, and representation learning in the video domain is much slower, and the performance of deep learning methods remains comparable with non-deep ones. Towards this direction, this Ph.D. proposes a multi-task spatio-temporal network, that can jointly tackle the spatio-temporal problems of saliency estimation, action recognition and video summarization. The proposed approach employs a single network that is jointly end-to-end trained for all tasks with multiple and diverse datasets related to the exploring tasks. The proposed network uses a unified architecture that includes global and task specific layer and produces multiple output types, i.e., saliency maps or classification labels, by employing the same video input. From the extensive evaluation, on seven different datasets, we have observed that the multi-task network performs as well as the state-of-the-art single-task methods (or in some cases better), while it requires less computational budget than having one independent network per each task. In parallel with the proposed models for spatio-temporal representations learning, there were also investigated additional methods for tackle each one of the above spatio-temporal problems independently that outperform the existed state-of-the-art methods in many evaluation databases. For this purpose it was developed a multimodal system for salient events detection and video summarization based on visual, audio and text modalities. The system's performance was evaluated in human annotated databases, which contain both movies and documentary videos, and manage to improve the existing summarization systems. In the context of studying temporal related problems in computer vision, one important part of the Ph.D. has focused on extending and integrating computer vision algorithms in robotic applications and especially in human-robot interaction systems designed for specific groups, like elderly people and children. More specifically, there were developed methods and models for multi-view human action and gesture recognition by employing information from multiple sensors. The evaluation results in specific databases as well as with primary users have confirmed the success of the proposed system for human-robot interaction tasks both in terms of performance and user acceptability. Finally, it was proposed and developed an action and gesture recognition system for human-robot interaction applications based on neural network technology. The proposed system take advantage of the higher lever information, i.e., the pose of the human body and hands, that is extracted by processing the raw visual information using state-of-the-art deep learning based methods. The evaluation results in multiple datasets, that contain both healthy users and patients, have shown that the proposed system manages to perform high accuracy recognition while its integration in robotic platform enables real-time monitoring and recognition of human activities.Στα πλαίσια της διδακτορικής διατριβής αρχικά αναπτύχθηκε και προτάθηκε ένα χωροχρονικό μοντέλο για την ανάλυση βίντεο και την οπτική προσοχή εμπνευσμένο από την ανθρώπινη αντίληψη, το οποίο χρησιμοποιήθηκε και αξιολογήθηκε στα χωροχρονικά προβλήματα της οπτικής προσοχής (μέσω της πρόβλεψης των σημείων εστίασης των ματιών), της αναγνώρισης δράσεων αλλά και της δημιουργίας περιλήψεων από βίντεο. Το χωροχρονικό αυτό μοντέλο μπορεί να παρέχει πληροφορία σχετικά με την κίνηση σε διαφορετικές κλίμακες και κατευθύνσεις χωρίς να χρειάζεται να την επεξεργαστεί σαν μια ξεχωριστή ροή πληροφορίας υπολογισμένη από έναν μικρό αριθμό καρέ του βίντεο. Με αυτό τον τρόπο η προσέγγιση αυτή επιτυγχάνει να εντοπίζει τόσο τις πολύ γρήγορες αλλαγές του βίντεο όσο και τις πιο αργές αλλαγές στην κίνηση που σχετίζονται με την αναγνώριση δράσεων ή προεξεχόντων γεγονότων. Πρόσφατα, η ευρεία χρήση τεχνικών βαθιάς μάθησης, όπως τα συνελικτικά νευρωνικά δίκτυα (Convolutional Neural Networks - CNNs), έχει ενισχύσει σημαντικά την απόδοση στην πλειοψηφία των στατικών προβλημάτων της όρασης υπολογιστών, όπως ο εντοπισμός αντικειμένων ή η σημασιολογική κατάτμηση. Αντίθετα η έρευνα σχετικά με τη σχεδίαση και εκμάθηση αναπαραστάσεων για τα προβλήματα της όρασης υπολογιστών που σχετίζονται με το χρόνο, είναι αρκετά μικρότερη και η απόδοση των δυναμικών μεθόδων και αλγορίθμων παραμένει σε αρκετές περιπτώσεις συγκρίσιμη με την εφαρμογή των στατικών προσεγγίσεων μεμονωμένα σε κάθε καρέ του βίντεο. Για το σκοπό αυτό προτάθηκε ένα χωροχρονικό βαθύ νευρωνικό δίκτυο πολλαπλών εργασιών, το οποίο μπορεί να αντιμετωπίσει από κοινού τα χωροχρονικά προβλήματα της εκτίμησης της προσοχής, της αναγνώρισης δράσεων και της δημιουργίας περιλήψεων από βίντεο. Η προτεινόμενη προσέγγιση χρησιμοποιεί ένα ενιαίο βαθύ νευρωνικό δίκτυο που εκπαιδεύεται ενιαία και από κοινού για όλες τις εργασίες με τη χρήση πολλαπλών και διαφορετικών βάσεων δεδομένων που σχετίζονται με τις εργασίες που εξετάζονται. Το προτεινόμενο δίκτυο χρησιμοποιεί μια ενοποιημένη αρχιτεκτονική που περιλαμβάνει επίπεδα γενικού σκοπού αλλά και επίπεδα που σχετίζονται με μια συγκεκριμένη εργασία και παράγει εξόδους πολλαπλών τύπων, δηλαδή χάρτες προσοχής ή ετικέτες ταξινόμησης, χρησιμοποιώντας σαν είσοδο το ίδιο βίντεο. Από την εκτεταμένη αξιολόγηση, σε επτά διαφορετικές βάσεις δεδομένων, παρατηρούμε ότι το δίκτυο πολλαπλών εργασιών αποδίδει το ίδιο καλά (ή σε ορισμένες περιπτώσεις καλύτερα) με τις τελευταίες (state-of-the-art) μεθόδους που σχεδιάστηκαν για μια μόνο εργασία, ενώ απαιτεί λιγότερους υπολογιστικούς πόρους σε αντίθεση με το έχουμε ένα ανεξάρτητο δίκτυο ανά κάθε μια εργασία. Παράλληλα με τα προτεινόμενα μοντέλα εκμάθησης χωροχρονικών αναπαραστάσεων, διερευνήθηκαν και προτάθηκαν επιπρόσθετες μέθοδοι για την επίλυση καθενός από τα παραπάνω χωροχρονικά προβλήματα οι οποίες ξεπέρασαν σε απόδοση τις τότε υπάρχουσες μεθόδους της βιβλιογραφίας σε αρκετές βάσεις αξιολόγησης. Για το σκοπό αυτό, αναπτύχθηκε ένα πολυτροπικό σύστημα ανίχνευσης προεξεχόντων γεγονότων και δημιουργίας περιλήψεων βασισμένο στις τροπικότητες εικόνας, ήχου και κειμένου. Η απόδοση του συστήματος αξιολογήθηκε με βάση επισημειώσεις χρηστών σε βίντεο ταινιών και ντοκιμαντέρ και κατόρθωσε να βελτιώσει σημαντικά τα υπάρχοντα συστήματα δημιουργίας περιλήψεων. Στα πλαίσια μελέτης των προβλημάτων που σχετίζονται με το χρόνο, έγινε επέκταση και ενσωμάτωση μεθόδων της όρασης υπολογιστών σε προβλήματα της ρομποτικής και ιδιαίτερα σε εφαρμογές που σχετίζονται με την επικοινωνία και αλληλεπίδραση των ρομπότ με ειδικές ηλικιακές ομάδες και συγκεκριμένα με ηλικιωμένους και παιδιά. Πιο συγκεκριμένα αναπτύχθηκαν μέθοδοι και μοντέλα αναγνώρισης ανθρώπινων δράσεων και χειρονομιών αξιοποιώντας την πληροφορία από πολλαπλές κάμερες. Τα αποτελέσματα τόσο σε βάσεις δεδομένων όσο και με πραγματικούς χρήστες αναδεικνύουν την αποτελεσματικότητα και καταλληλότητα των μεθόδων στα προβλήματα επικοινωνίας ανθρώπου-ρομπότ. Τέλος, προτάθηκε και υλοποιήθηκε ένα σύστημα αναγνώρισης δράσεων και χειρονομιών για προβλήματα αλληλεπίδρασης ανθρώπου-ρομπότ βασισμένο στην τεχνολογία των νευρωνικών δικτύων. Το προτεινόμενο σύστημα αξιοποιεί την πληροφορία υψηλού επιπέδου, όπως η πόζα του σώματος και των χεριών, που προκύπτει από την επεξεργασία της αρχικής οπτικής πληροφορίας από state-of-the-art μεθόδους βαθιάς εκμάθησης. Τα πειραματικά αποτελέσματα σε πολλαπλές βάσεις, τόσο με υγιείς χρήστες όσο και με ασθενείς, έδειξαν ότι το προτεινόμενο σύστημα μπορεί να επιτύχει αρκετά υψηλά επίπεδα αναγνώρισης ενώ η ενσωμάτωση του σε ρομποτικές πλατφόρμες δίνει τη δυνατότητα παρακολούθησης και αναγνώρισης των ανθρώπινων δραστηριοτήτων σε πραγματικό χρόνο

    Estimation of Eye Gaze with Active Appearance Models

    No full text
    135 σ.Η συγκεκριμένη διπλωματική έχει σαν αντικείμενο την επίλυση προβλημάτων που προκύπτουν από την αναγνώριση και μοντελοποίηση του αναθρώπινου προσώπου, εστιάζοντας στο μεγαλύτερο μέρος της στην εκτίμηση της κατεύθυνσης του βλέμματος (eye gaze). Επιπλέον, αναλύονται και γίνεται προσπάθεια να επιλυθούν και άλλα σημαντικά προβλήματα που σχετίζονται με τη μοντελοποίηση του προσώπου όπως η εκτίμηση της πόζας κεφαλιού και η αναγνώριση συναισθήματος με βάση χαρακτηριστικά του προσώπου του. Αρχικά, γίνεται μια συστηματική και συνοπτική επισκόπηση των μεθόδων της βιβλιογραφίας σχετικά με τα παραπάνω προβλήματα καθώς και περιγραφή των μεθόδων υλοποίησης και προσαρμογής των Ενεργών Μοντέλων Εμφάνισης (AAMs) σε νέες εικόνες. Στη συνέχεια, ακολουθεί η ανάλυση και υλοποίηση του συστήματος υπολογισμού του eye gaze ακολουθώντας δύο διαφορετικές προσεγγίσεις. Στην πρώτη από αυτές αναλύεται μια μέθοδος υπολογισμού του eye gaze που στηρίζεται στο γεωμετρικό μοντέλο του ματιού, η οποία παρέχει εκτίμηση υπό μορφή γωνιών. Για την ακριβέστερη εκτίμηση του eye gaze αναπτύσσεται, σαν ένα ενδιάμεσο στάδιο, μια τεχνική υπολογισμού της πόζας κεφαλιού. Σύμφωνα με τη δεύτερη προσέγγιση γίνεται κατηγοριοποίηση του gaze με χρήση μοντέλων μείγματος γκαουσιανών συναρτήσεων (GMMs) σε διακριτές κλάσεις, τόσο με βάση τις παραμέτρους του τοπικού AAM όσο και με χαρακτηριστικά Ιστογραμμάτων Προσανατολισμένης Κλίσης (HOGs), και προτείνεται τρόπος για την αντιστοίχιση των κλάσεων με γωνίες. Τέλος, γίνεται ανάπτυξη ενός συστήματος κατηγοριοποίησης του συναισθήματος σε διακριτές κλάσεις, βασιζόμενο στις παραμέτρους των AAMs και χρησιμοποιώντας σαν ταξινομητές GMMs αλλά και Κρυφά Μαρκοβιανά Μοντέλα (HMMs).The aim of this thesis is to find solutions to problems that occur from the recognition and modeling of the human face, focusing primarily on the estimation of eye gaze. Moreover, a greater range of problems concerning from the face modeling, such as head pose estimation and emotion classification by facial features, are being analyzed and an effort is being made to resolve them. Initially, a systematic and compact review of the bibliography methods about these problems is made, as well as a description of the solution and fitting technique of Active Appearance Models (AAMs) into prototype pictures. Furthermore, the analysis and implementation of a computing system for eye gaze by two different points of view is being presented. In the first one, one eye gaze computing method based on a geometric model of eye is analyzed; this method provides angle form estimation. For a more accurate estimation, it is developed in an intermediate step one computing technique for the head pose. In the second one, gaze is being classified into discrete classes through Gaussian Mixture Models (GMM), using both the AAMs parameters, and the HOGs (Histograms of Oriented Gradients) features; and a matching way between classes and gaze angles. Finally, a system for discrete emotion classification, based on AAMs parameters using GMMs and Hidden Markov Models (HMMs) classifiers, is developed.Πέτρος Ν. Κούτρα
    corecore